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(57) Abstract: The invention relates to a cryptographic processor for carrying out operations for cryptographic applications and 
comprising a large number of coprocessors (104a, 104b, 104c), each coprocessor having a control unit and an arithmetic unit, a 
central processing unit (102) for controlling the large number of coprocessors (104a, 104b, 104c) and a bus (101) for connecting each 
coprocessor (104a, 104b, 104c) to the central processing unit (102). The central processing unit (102), the majority of coprocessors 
(104a, 104b, 104c) and the bus (101) are integrated into a single chip (100). The chip also comprises a common power supply input 
(122) for supplying the large number of coprocessors (104a, 104b, 104c). The connection in series of different coprocessors increases 
the throughput of the cryptographic processor and simultaneously improves the security of said processor against attacks, made on 
the basis of an evaluation of output profiles of the cryptographic processor, as the output profiles of at least two coprocessors are 
superimposed. By using different types of coprocessors, the cryptographic processor can also be configured as a multifunctional 
cryptographic processor suitable for use with a multitude of different cryptographic algorithms. 

(57) Zusammenfassung: Ein Kryptographieprozessor zum Durchfuhren von Operationen fur kryptographische Anwendungen um- 
fasst eine Mehrzahl von Coprozessoren (104a, 104b, 104c), wobei jeder Coprozessor eine Steuereinheit und eine arithmetische 
Einheit aufweist, eine zentrale Verarbeitungseinheit (102) zum Ansteuern der Mehrzahl von Coprozessoren (104a, 104b, 104c) und 
einen Bus (101) zum Verbinden jedes Coprozessors (104a, 104b, 104c) 

[Fortsetzung auf der ntichsten Seite] 
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mit der zentralen Verarbeitungseinheit (102). Die zentrale Verarbeitungseinheit (102), die Mehrzahl von Coprozessoren (104a, 
104b, 104c) und der Bus (101) sind auf einem einzigen Chip (100) integriert. Der Chip umfasst ferner einen gemeinsamen 
Versorgungsstromzugang (122) zum Versorgen der Mehrzahl von Coprozessoren (104a, 104b, 104c). Durch Parallel schaltung 
verschiedener Coprozessoren wird eine Erhohung des Durchsatzes und zugleich eine Verbesserung der Sicherheit des Kryptogra- 
phieprozessors gegeniiber Angriffen erreicht, welche auf der Auswertung von Leistungsprofilen des Kryptographieprozessors 
aufbauen, da Leistungsprofile zumindest zweier Coprozessoren uberlagert sind. Ferner kann der Kryptographieprozessor auch 
durch Verwendung verschiedenartiger Coprozessoren als multifunktionaler Kryptographieprozessor ausgestaltet werden, um fur 
eine Vielzahl von verschiedenen kryptographischen Algorithmen geeignet zu sein. 
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Beschreibung 
Kryptographieprozessor 

Die vorliegende Erfindung bezieht sich auf Kryptographietech- 
niken und insbesondere auf die Architektur von fur kryptogra- 
phische Anwendungen verwendeten Kryptographieprozessoren. 

Mit zunehmender Verbreitung von bargeldlosem Zahlungsverkehr, 
elektronischer Datenubertragung uber offentliche Netze, Aus- 
tausch von Kreditkartennummern uber Sffentliche Netze und 
allgemein gesagt der Verwendung von sogenannten Smart Cards 
fur Zahlungs-, Identifikations- oder Zugrif f szwecke entsteht 
ein immer grofierer Bedarf nach Kryptographietechniken. Kryp- 
tographietechniken umfassen einerseits Kryptographiealgorith- 
men und andererseits geeignete Prozessorenlosungen, welche 
die durch die Kryptographiealgorithmen vorgeschriebenen Be- 
rechnungen ausfiihren. Wurden friiher Kryptographiealgorithmen 
mit Allzweckrechnern ausgeftihrt, so spielten die Kosten, der 
Rechenzeitbedarf und die Sicherheit gegenuber verschiedenar- 
tigsten Fremdattacken keine derart entscheidende Rolle wie 
heutzutage, wo kryptographische Algorithmen immer mehr auf 
Chipkarten oder speziellen Sicherheits-Ics ausgeftihrt werden, 
fur die besondere Anforderungen gelten. So mussen solche 
Smart Cards einerseits preisgunstig verfUgbar sein, da sie 
Massenprodukte sind, andererseits jedoch eine grofie Sicher- 
heit gegenuber Fremdattacken aufweisen, da sie vollstandig in 
der Gewalt des potentiellen Angreifers sind. 

Dartiber hinaus mussen kryptographische Prozessoren eine be- 
achtliche Rechenleistung zur Verfugung stellen, zumal die Si- 
cherheit von vielen kryptographischen Algorithmen, wie z. B. 
dem bekannten RSA-Algorithmus, entscheidend von der Lange der 
verwendeten Schlttssel abhangt. In anderen Worten ausgedruckt 
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bedeutet dies, dass mit zunehmender Lange der zu verarbeiten- 
den Zahlen auch die Sicherheit ansteigt, da ein Angriff, der 
auf dem Ausprobieren aller Moglichkeiten basiert, aus Rechen- 
zeitgrtinden unmoglich gemacht wird. 

In Zahlenwerten ausgedruckt bedeutet dies, dass Kryptogra- 
phieprozessoren mit Integers, d. h. Ganzzahlen, umgehen mus- 
sen, welche eine Lange von vielleicht 1024 Bits, 2048 Bits 
oder vielleicht sogar noch mehr haben konnen. Zum Vergleich 
verarbeiten Prozessoren in einem tlblichen PC 32-Bit- bzw. 64- 
Bit-Ganzzahlen. Lediglich bei der Berechnung unter Verwendung 
von elliptischen Kurven liegt die Stellenzahl bei niedrigeren 
Werten im Bereich von 160 Stellen, was jedoch immer noch 
deutlich tiber den tiblichen PC-Stellenzahlen ist. 

Ein hoher Rechenaufwand bedeutet jedoch auch eine hohe Re- 
chenzeit, so dass fiir Kryptographieprozessoren gleichzeitig 
auch die wesentliche Anforderung darin besteht, einen hohen 
Rechendurchsatz zu erreichen, damit beispielsweise eine Iden- 
tifikation, ein Zugang zu einem Gebaude, eine Bezah- 
lungstransaktion oder eine Kreditkarteniibermittlung nicht 
viele Minuten dauert, was fur die Marktakzeptanz sehr schad- 
lich ware. 

Zusammenfassend lasst sich daher feststellen, dass Kryptogra- 
phieprozessoren sicher, schnell und daher aufierordentlich 
leistungsstark sein miissen, 

Eine Moglichkeit, urn den Durchsatz durch einen Prozessor zu 
erhohen, besteht darin, eine zentrale Verarbeitungseinheit 
mit einem oder mehreren Coprozessoren, welche parallel arbei- 
ten, auszustatten, wie es beispielsweise bei modernen PCs 
oder aber auch bei modernen Graphikkarten der Fall ist* Ein 
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solches Szenario ist in Fig. 7 gezeigt. Fig. 7 zeigt eine 
Computerplatine 800, auf der eine CPU 802, ein Arbeitsspei- 
cher (RAM) 804, ein erster Coprozessor 806, ein zweiter Co- 
prozessor 808 sowie ein dritter Coprozessor 810 angeordnet 
sind. Die CPU 802 ist mit den drei Coprozessoren 806, 808, 
810 tiber einen Bus 812 verbunden. Ferner kann fur jeden Co- 
prozessor ein eigener Speicher vorgesehen sein, welcher nur 
ftir Operationen des Coprozessors dient, d. h. ein Speicher 1 
814, ein Speicher 2 816 fur den Coprozessor 2 sowie ein Spei- 
cher 3 818 fur den Coprozessor 3. 

Ferner wird jeder Chip, der auf der in Fig. 7 gezeigten Com- 
puterplatine 800 angeordnet ist, tiber einen eigenen Strom- 
bzw. Spannungsversorgungsanschluss Ii bis I 8 mit der fur das 
Funktionieren der elektronischen Komponenten innerhalb der 
einzelnen Elemente benotigten elektrischen Leistung versorgt. 
Ftir die Platine kann alternativ auch nur eine Stromversorgung 
vorhanden sein, die dann iiber die Platine zu den einzelnen 
Chips auf der Platine verteilt wird. Dabei stehen jedoch die 
Versorgungsleitungen zu den einzelnen Chips fttr einen Angrei- 
fer zur Verftigung. 

Das in Fig. 7 gezeigte Konzept ftir tibliche Computeranwendun- 
gen ist aus mehreren Grunden ftir Kryptographieprozessoren un- 
geeignet. Zum einen sind alle Elemente fur die Kurzzahl- 
Arithmetik aufgefuhrt, w&hrend Kryptographieprozessoren Lang- 
zahlarithmetik-Operationen durchftihren miissen. 

Des weiteren weist jeder Chip auf der Computerplatine 800 ei- 
nen eigenen Strom- bzw. Leistungszugang auf, auf den ohne 
weiteres von einem Angreifer zugegriffen werden kann, um Lei- 
stungsprofile oder Stromprofile tiber der Zeit abzugreifen. 
Das Abgreifen von Leistungsprofilen tiber der Zeit ist die Ba- 
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sis fur eine Vielzahl von effizienten Attacken gegentiber 
Kryptographieprozessoren. Weitere Hintergrtinde bzw. eine de- 
taillierte Darstellung verschiedener Attacken gegen Krypto- 
graphieprozessoren sind in "Information Leakage Attacks 
Against Smart Card Implementations of Cryptographic Algo- 
rithms and Countermeasures", Hess u. a., Eurosmart Security 
Conference, 13. Juni bis 15- Juni 2000, dargestellt. Als Ge- 
genmafinahmen werden Implementationen vorgeschlagen, welche 
darauf aufbauen, dass verschiedene Operationen immer die 
gleiche Zeit bendtigen, so dass ein Angreifer aufgrund eines 
Leistungsprof ils nicht ersehen kann, ob der Kryptographiepro- 
zessor eine Multiplikation, eine Addition oder irgend etwas 
anderes ausgef tihrt hat . 

In "Design of Long Integer Arithmetic units for Public-Key 
Algorithms", Hess u. a. Eurosmart Security Conference, 13. 
Juni bis 15. Juni 2000 wird auf verschiedene Rechenoperatio- . 
nen eingegangen, welche von Kryptographie-Prozessoren aus- 
fuhrbar sein mussen. Insbesondere wird auf die modulare Mul- 
tiplikation, Verfahren zur modularen Reduktion sowie auf das 
sogenannten ZDN-Verfahren eingegangen, das in dem deutschen 
Patent DE 36 31 992 C2 dargestellt ist. 

Das ZDN-Verfahren basiert auf einer Seriell/Parallel- 

■v 

Architektur unter Verwendung von parallel ausftihrbaren Look- 
Ahead Algorithmen fur die Multiplikation und die modulare Re- 
duktion, um eine Multiplikation zweier Binarzahlen in eine 
iterative 3-Operanden-Addition unter Verwendung von Look- 
Ahead-Parametern fiir die Multiplikation und die modulare Re- 
duktion zu trans formieren. Hierzu wird die modulare Multipli- 
kation in eine serielle Berechnung von Partialprodukten zer- 
legt. Zu Beginn der Iteration werden zwei Partialprodukte ge- 
bildet und dann unter Berticksichtigung der modularen Redukti- 
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on zusammenaddiert, um ein Zwischenergebnis zu erhalten. 
Hierauf wird ein weiteres Partialprodukt gebildet und wieder 
unter Berucksichtigung der modularen Reduktion zu dem Zwi- 
schenergebnis hinzuaddiert . Diese Iteration wird fortgesetzt, 
bis samtliche Stellen des Multiplikators abgearbeitet sind. 
Fur die Drei-Operanden-Addition umfasst ein Kryptocoprozessor 
ein Addierwerk, welches in einem aktuellen Iterationsschritt 
die Summation eines neuen Partialprodukts zu dem Zwischener- 
gebnis des vorausgehenden Iterationsschritts durchfiihrt. 

So konnte jeder Coprozessor von Fig. 7 mit einer eigenen ZDN- 
Einheit ausgestattet sein, um mehrere modulare Multiplikatio- 
nen parallel auszufiihren, um fur bestimmte Anwendungen den 
Durchsatz zu erhohen. Diese Losung wttrde jedoch wiederum dar- 
an scheitern, dass ein Angreifer von jedem Chip einzeln die 
Stromprofile eruieren konnte, so dass zwar eine Erhohung des 
Durchsatzes erreicht worden ist, jedoch auf Kosten der Si- 
cherheit des Kryptographie-Rechners . 

Die Aufgabe der vorliegenden Erfindung besteht darin, einen 
schnellen und sicheren Kryptographieprozessor zu schaffen. 

Diese Aufgabe wird durch einen Kryptographieprozessor nach 
Patentanspruch 1 geldst, 

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, 
dass von der herkommlichen Art und Weise . zum Parallelisieren 
von kryptographischen Operationen weggegangen werden muss. 
Kryptographieprozessoren gemaii der vorliegenden Erfindung 
sind auf einem einzigen Chip implementiert . Eine Mehrzahl von 
Coprozessoren sind iiber einen Bus mit einer zentralen Verar- 
beitungseinheit verbunden, wobei samtliche Coprozessoren 
durch einen gemeinsamen Stromversorgungsanschluss mit Lei- 
stung versorgt werden. Dann ist es einem Angreifer nur noch 
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sehr schwer oder sogar nicht mehr moglich, die Operationen 
der einzelnen Coprozessoren anhand eines Leistungsprof ils an 
dem Stromversorgungsanschluss "abzuhoren". Zur Erhohung des 
Durchsatzes des Kryptographieprozessors sind die Coprozesso- 
ren tiber den Bus parallel mit der zentralen Verarbeitungsein- 
heit verbunden, derart, dass eine arithmetische Operation 
durch die zentrale Verarbeitungseinheit (CPU) auf die einzel- 
nen Coprozessoren verteilt werden kann. 

Vorzugsweise sind mehrere verschiedene Typen von Coprozesso- 
ren auf dem einen Chip integriert, so dass der Kryptographie- 
prozessor als multifunktionaler Kryptographieprozessor einge- 
setzt werden kann. Mit anderen Wort en bedeutet dies, dass ein 
Coprozessor bzw. eine Gruppe von Coprozessoren fur asymmetri- 
sche Verschlusselungsverfahren, wie z. B. den RSA- 
Algorithmus, ausgestaltet sind. Wieder andere Kryptocoprozes- 
soren sind zur Durchftihrung von arithmetischen Operationen 
vorgesehen, welche z. B. fur DES-Verschlusselungsverf ahren 
notig sind. Ein weiterer Coprozessor bzw. mehrere weitere 
Coprozessoren bilden z. B. ein AES-Modul, urn symmetrische 
Verschlusselungsverfahren durchfuhren zu konnen, wahrend wie- 
der andere Coprozessoren z. B. ein Hash-Modul bilden, urn 
Hash-Werte zu berechnen. Damit wird ein sicherer multifunk- 
tionaler Kryptographieprozessor erhalten, welcher, wenn er 
eine entsprechende Anzahl von Kryptocoprozessoren umfasst, 
fur viele verschiedene Verschlusselungsverfahren eingesetzt 
werden kann. Ein solcher multifunktionaler Kryptographiepro- 
zessor ist insbesondere fur Server-Anwendungen z. B. im In- 
ternet vorteilhaft, derart, dass mit einem Server viele ver- 
schiedene Verschltisselungsaufgaben ausgeftihrt werden k6nnen. 

Multifunktionalitat ist jedoch auch ftir Smart Cards von Vor- 
teil, zumal verschiedene Verschliisselungskonzepte parallel 
vorhanden sind bzw. sich immer weiter ausbreiten. So wird ei- 
ne Smart Card am Markt erfolgreich sein, wenn sie viele ver- 
schiedenen Funktionalitaten ausfiihren kann, und zwar im Ver- 
gleich zu einem Konzept mit vielen verschiedenen Smart Cards 
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fur viele verschiedenen Operationen, da ein Smart Card Inha- 
ber in seiner Brief tasche lediglich eine einzige Smart Card 
halten muss und nicht beispielsweise 10 verschiedene Smart 
Cards ftir 10 verschiedene Anwendungen. 

Des weiteren liefert der erf indungsgemafie Kryptographiepro- 
zessor nicht nur Multifunktionalitat, sondern daruber hinaus 
eine hohere Sicherheit. Die hohere Sicherheit ist gewisserma- 
fien ein "Abf allprodukt" der Multifunktionalitat, da die ver- 
schiedenen kryptographischen Algorithmen verschiedene Opera- 
tionen und damit verschiedene Leistungsprofile haben. Selbst 
wenn immer nur ein Kryptocoprozessor einen Algorithmustyp 
ausftlhrt und die anderen Kryptocoprozessoren gerade ruhen, da 
sie nicht angesprochen worden sind, existiert ftir einen An- 
greifer eine weitere Barriere dahingehend, dass er, bevor er 
das individuelle Leistungsprof il analysieren kann, zunachst 
herausfinden muss, welcher Algorithmustyp gerade aktiv ist. 
Wesentlich schwieriger wird es fur den Angreifern, wenn zwei 
Kryptocoprozessortypen parallel arbeiten, da sich dann Lei- 
stungsprofile von zwei vollig verschiedenen Algorithmus-Typen 
an dem gemeinsamen Stromversorgungsanschluss iAberlagern. 

Dieses Szenario kann prinzipiell immer erreicht werden, wenn 
der Kryptocoprozessor derart ausgestaltet ist, dass ein Typ 
von Kryptocoprozessoren gewissermafien eine M Dummy"-Berechnung 
ausfuhrt, selbst wenn lediglich ein einziger anderer Krypto- 
coprozessortyp angesprochen ist* Wenn der "Dummy"- 
Kryptocoprozessor zufallig ausgewahlt wird, so wird es einem 
Angreifer noch schwerer gemacht, Parameter des ^Nutz"- 
Kryptocoprozessoralgorithmus zu eruieren, da er, selbst wenn 
immer der gleiche Nutz-Algorithmus ausgefiihrt, nicht weifi, 
welches andere Modul gerade arbeitet. Die Sicherheit steigt 
somit mit der Anzahl der verschiedenen Kryptocoprozessoren 
auf dem Kryptographieprozessorchip. 
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Bevorzugte Ausftihrungsbeispiele der vorliegenden Erfindung 
werden nachfolgend bezugnehmend auf die beiliegenden Zeich- 
nungen detailliert erlautert. Es zeigen: 

Fig. 1 einen erf indungsgemaflen Kryptographieprozessor, der 
auf einem einzigen Chip integriert ist; 

Fig. 2 eine detailliertere Darstellung der Mehrzahl von 

autarken Coprozessoren, die von einer CPU angesteu- 
ert werden; 

Fig. 3 eine detailliertere Darstellung einer 

Arithmetikeinheit, welche fur eine Drei-Operanden- 
Addition geeignet ist; 

Fig. 4a ein schematisches Flussdiagramm zum Durchfuhren ei- 
ner modularen Multiplikation auf seriell/parallele 
Art und Weise; 

Fig. 4b ein Zahlenbeispiel zur Veranschaulichung der seri- 
ell/parallelen Arbeitsweise einer Arithmetikeinheit 
am Beispiel einer Multiplikation; 

Fig. 5 ein Beispiel zum Aufteilen einer modularen Exponen- 
tiation in eine Anzahl von modularen Multiplikatio- 
nen; 

Fig. 6 ein weiteres Beispiel zum Aufteilen einer modularen 
Multiplikation auf verschiedene Coprozessoren; und 

Fig. 7 eine Computerplatine mit einer Vielzahl von ge- 
trennt versorgten Bauelementen. 
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Bevor detaillierter auf die einzelnen Figuren eingegangen 
wird, wird im nachfolgenden ausgefiihrt, weshalb durch Paral- 
lelschaltung mehrerer Coprozessoren, die auf einem Chip ange- 
ordnet sind und durch eine Steuereinheit, die auf demselben 
Chip angeordnet ist, gesteuert werden, eine hohere Sicherheit 
erreicht wird. 

Kryptographieprozessoren werden ftir sicherheitskritische An- 
wendung benutzt, beispielsweise ftir digitale Signaturen, Au- 
thentif ikationen oder Verschltisselungsaufgaben. Ein Angreifer 
mSchte beispielsweise den geheimen Schlussel herausf inden, um 
dadurch das Kryptographieverfahren zu brechen. Kryptographie- 
prozessoren werden beispielsweise in Chipkarten eingesetzt, 
welche, wie es bereits ausgefiihrt worden ist, Smart Cards 
oder Signaturkarten fur eine rechtsverbindliche elektronische 
Unterschrift oder auch ftir Homebanking oder zum Bezahlen mit 
dem Mobiltelephon usw. umfassen. Alternativ werden solche 
Kryptographieprozessoren auch in Computern und Servern als 
Sicherheits-IC eingesetzt, um eine Authentif ikation durchzu- 
fiihren, oder um Verschltisselungsaufgaben wahrnehmen zu kon- 
nen, welche beispielsweise im sicheren Bezahlen tiber das In- 
ternet, in sogenannten SSL-Sessions (SSL = Secure Socket Lay- 
er) , d. h. der sicheren tlbermittlung von Kreditkartennummern, 
bestehen konnen. 

Typische physikalische Angriffe messen den Stromverbrauch 
(SPA, DPA, Timing-Attacken) oder die elektromagnetische Ab- 
strahlung. Beztiglich einer naheren Erlauterung der Angriffe 
sei auf die eingangs erwahnten Literaturstellen verwiesen. 

Da die Angreifer bei der heutigen Halbleitertechnologie, wel- 
che Strukturen im Bereich von typischerweise kleiner oder 
gleich 250 Nanometern erreicht, nur sehr schwer lokale Strom- 
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messungen durchfiihren konnen, wird bei einem Angriff typi- 
scherweise der Stromverbrauch der gesamten Chipkarte ein- 
schliefilich CPU und Coprozessor gemessen, welcher sich aus 
der Summe der einzelnen Stromverbrauche von beispielsweise 
der CPU, dem RAM, einem ROM, einem E 2 PROM, einem Flash- 
Memory, einer Zeitsteuereinheit, einem Zufallszahlengenerator 
(RNG) , einem DES-Modul und dem Kryptocoprozessor zusammen- 
setzt. 

Da die Kryptocoprozessoren typischerweise den groBten Strom- 
verbrauch haben, kann ein Angreifer sehen, wann, die einzelnen 
Kryptocoprozessoren zu rechnen beginnen, wenn die einzelnen 
Coprozessoren einzeln mit Leistung versorgt werden. Um dies 
zu vermeiden, ware ein iiber der Zeit vollstandig konstanter 
Stromverbrauch das Ziel, ein Angreifer wtirde dann nicht mehr 
erkennen, wann ein Kryptocoprozessor zu rechnen beginnt. Die- 
ses ideale Ziel kann nicht erreicht werden, es wird jedoch 
durch das erf indungsgemaJie Parallelschalten von Coprozessoren 
ein moglichst gleichformiges „Rauschen" um einen Mittelwert 
angestrebt und erreicht.. 

Der Stromverbrauch eines beispielsweise in CMOS-Technologie 
gefertigten Chips andert sich bei einer Umschaltung von einer 
x> 0" auf eine "1". Daher ist der Stromverbrauch datenabhangig 
sdwie abhangig von den verwendeten Befehlen der CPU und der 
Kryptocoprozessoren . 

Schaltet man nun mehrere Coprozessoren parallel und lasst sie 
mehrere Operationen bzw. Teiloperationen parallel abarbeiten, 
oder wird eine Operation auf mehrere Coprozessoren aufge- 
teilt, so uberlagern sich, wie es ausgefuhrt worden ist, die 
Stromprofile, welche durch die Daten- und Bef ehlsverarbeitung 
entstehen. 
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Je mehr Coprozessoren parallel arbeiten, desto schwieriger 
kann auf Daten und Befehle in den einzelnen Coprozessoren 
bzw. in der Steuereinheit zurtickgeschlossen werden, da die 
Daten und Befehle in jedem Coprozessor ublicherweise unter- 
schiedlich sein werden, der Angreifer jedoch nur die Oberla- 
gerung unterschiedlicher Befehle und nicht die auf einzelne 
Befehle zurtickgehenden Stromprof ile sieht. 

Fig. 1 zeigt.einen erf indungsgemaJien Kryptographieprozessor 
zum Durchfuhren von Operationen fiir kryptographische Anwen- 
dungen. Der Kryptographieprozessor ist auf einem einzigen 
Chip 100 implementiert und umfasst eine zentrale Verarbei- 
tungseinheit (CPU) 102 und eine Mehrzahl von Coprozessoren 
104a, 104b, 104c. Die Coprozessoren sind, wie es in Fig. 1 
gezeigt ist, auf demselben Chip angeordnet wie die zentrale 
Verarbeitungseinheit 102. Jeder Coprozessor der Mehrzahl von 
Coprozessoren umfasst eine eigene arithmetische Einheit. Vor- 
zugsweise umfasst jeder Coprozessor 104a, 104b, 104c neben 
der AU auch zumindest ein Register (REG) , urn, wie es bezug- 
nehmend auf Fig. 2 ausgeftihrt wird, Zwischenergebnisse spei- 
chern zu konnen. 

Ein typischer Kryptographieprozessor wird eine Eingangs- 
schnittstelle 114 und eine Ausgangsschnittstelle 116 umfas- 
sen, welche mit aufieren Anschliissen fiir eine Dateneingabe 
bzw. eine Datenausgabe sowie mit der CPU 102 verbunden sind. 
Typischerweise ist der CPU 102 ein eigener Speicher 118 zuge- 
ordnet, der in Fig. 1 mit RAM bezeichnet ist. Unter anderem 
kann der Kryptographieprozessor noch einen Taktgenerator 120, 
weitere Speicher, Zuf allszahlengeneratoren etc. umfassen, 
welche in Fig. 1 nicht gezeigt sind. 
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Es sei darauf hingewiesen, dass sSmtliche in Fig. 1 darge- 
stellten Elemente auf einem einzigen Chip implementiert sind, 
welcher durch einen einzigen Stromversorgungsanschluss 122 
mit Leistung versorgt wird. Der Chip 100 umfasst intern 
Stromversorgungsleitungen zu samtlichen in Fig. 1 gezeigten 
Elementen, welche jedoch aus oben angegebenen Grtinden nicht 
einzeln abgehort werden konnen. 

Dagegen stellt es ein Leichtes dar, den Stromversorgungsan- 
schluss 122 abzuhoren. Im Gegensatz zu der in Fig. 7 gezeig- 
ten Platine, bei der die Stromversorgungsanschltisse aller 
einzelnen Komponenten sehr leicht abhorbar sind, und. daher 
sehr "ausdrucks starke " Stromprof ile haben, ist das am Strom- 
versorgungsanschluss 122 anliegende Stromprofil nahezu kon- 
stant bzw. weist ein moglichst homogenes Rauschen urn einen 
konstanten Wert auf. Dies ist darauf zuriickzufuhren, dass die 
Coprozessoren 104a, 104b, 104c, welche am meisten zum Strom- 
verbrauch beitragen, bei entsprechender Ansteuerung bzw. bei 
entsprechendem Aufbau unabhangig voneinander beispielsweise 
von u 0" auf "1" \amschalten und daher unkorreliert voneinander 
Strom verbrauchen. 

Die Parallelschaltung der einzelnen Coprozessoren fiihrt zudem 
dazu, dass der Durchsatz des Kryptographieprozessors erhoht 
werden kann, so dass im Falle der Ausfuhrung eines Speichers 
auf dem Chip die damit einhergehenden Geschwindigkeitseinbu- 
fien, welche aufgrund unterschiedlicher Technologien fiir Spei- 
cher und Rechenwerke auftreten, mehr als ausgeglichen werden 
konnen . 

Der Kryptographieprozessor von Fig. 1 umfasst, wie es bereits 
ausgefiihrt worden ist, eine CPU 102, welche uber einen Bus 
101 mit einer Mehrzahl von Kryptocoprozessoren 104a, 104b, 
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104c verbunden ist. Erf indungsgemafi wird eine Homogenisierung 
des Leistungsprof ils an dem gemeinsamen Stromversorgungsan- 
schluss 122 bereits durch zwei voneinander getrennte autarke 
Kryptocoprozessoren 104a und 104b erreicht. Die Sicherheit 
wird verbessert, wenn die beiden Kryptocoprozessoren 104a und 
104b unterschiedlich ausgefuhrt sind, d. h. entweder unter- 
schiedliche Teiloperationen einer arithmetischen Operation 
ausfuhren konnen bzw. Rechenwerke fur verschiedene kryptogra- 
phische Algorithmen haben, wie z. B. fur asyinmetrische Ver- 
schlusselungsverf ahren (z. B . RSA) , symmetrische Verschliisse- 
lungsverfahren (DES, 3DES oder AES) , Hash-Module zur Berech- 
nung von Hash-Werten und dergleichen. Der Durchsatz wird er- 
hoht, wenn ftir jeden kryptographischen Algorithmustyp eine 
Mehrzahl von Kryptocoprozessoren parallel geschaltet wird. So 
zeigt Fig. 1 ni parallel geschaltete Kryptocoprozessoren, 
welche alle derart ausgestaltet sind, dass sie z. B. bei RSA- 
Algorithmen auftretende Operationen ausfuhren konnen. In der 
zweiten Coprozessorzeile von Fig. 1 sind n 2 komplette autarke 
Kryptocoprozessoren gezeigt, welche beispielsweise alle ftir 
arithmetische Operationen ausgestalteten, die fur DES- 
Algorithmen erforderlich sind. Schliefilich sind in der drit- 
ten Kryptocoprozessorzeile von Fig. 1 n± autarke Kryptocopro- 
zessoren dargestellt, welche alle ftir Operationen ausgestal- 
tet sind, die beispielsweise bei Hash-Berechnungen erforder- 
lich sind. Damit kann eine erhebliche Durchsatzsteigerung ftir 
die verschiedenen kryptographischen Algorithmen bzw. Opera- 
tionen, welche fur dieselben erforderlich sind, erreicht wer- 
den, wenn diese Operationen bzw. durch den kryptographischen 
Algorithmus vorgegebene Aufgaben auf parallele autarke Re- 
chenwerke verteilt werden konnen. 

Ein solcher multifunktionaler Kryptographieprozessor, welcher 
eine Mehrzahl von Kryptocoprozessoren ftir unterschiedliche 
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Aufgaben umfasst, ist auch dann vorteilhaft verwendbar, wenn 
der in Fig. 1 gezeigte Kryptographieprozessor, welcher bei- 
spielsweise auf einer Smart Card implementiert ist/ derart 
. angesteuert wird, dass er nur einen kryptographischen Algo- 
rithmic bearbeiten muss. Vorteilhafterweise ist die CPU der- 
art ausgestaltet, dass sie in diesem Fall einen eigentlich 
ruhenden Kryptocoprozessortyp ansteuert, damit derselbe "Dum- 
my"-Berechnungen ausfuhrt, derart, dass ein Angreifer am 
Stromversorgungseingang 122 zumindest zwei uberlagerte Lei- 
stungsprofile sieht. Vorteilhafterweise wird der Kryptocopro- 
zessortyp, welcher Dummy-Berechnungen ausftihrt, zufallig aus- 
gewahlt, so dass ein Angreifer, selbst wenn er herausgefunden 
hat, welcher Coprozessortyp die Nutzberechnungen ausfuhrt, 
niemals weifi, welcher Kryptocoprozessortyp gerade Dummy- 
Berechnungen durchftihrt, wobei gewissermafien ein "Dummy- 
Leistungsprof 11" dem "Nutz-Leistungsprof il" am gemeinsamen 
Stromversorgungsanschluss uberlagert ist. 

Fig. 2 zeigt eine detailliertere Darstellung der Kryptocopro- 
zessoren 104a, 104b und 104c. Wie es in Fig. 2 gezeigt ist, 
umfasst der autarke Kryptocoprozessor 104a eine arithmetische 
Einheit 106a, drei Register 106b bis 106d sowie eine eigene 
Steuereinheit 106e. Dasselbe gilt fiir den Kryptocoprozessor 
104b, welcher ebenfalls eine arithmetische Einheit 108a, bei- 
spielsweise drei Register 108b bis 108d sowie eine eigene 
Steuereinheit 108e aufweist. Analog dazu ist der Kryptocopro- 
zessor 104c aufgebaut. 

In Fig. 2 ist ferner schematisch die Einrichtung zum Variie- 
ren der Reihenfolge 200 als Teil der CPU gezeigt. Dasselbe 
gilt fur eine Einrichtung 202 zum Steuern von Dummy- 
Berechnungen, welche ebenfalls als Teil der CPU 102 darge- 
stellt ist. Die Einrichtung 202 ist bei einem bevorzugten - 
Ausfuhrungsbeispiel der vorliegenden Erfindung angeordnet, um 
zufallig den Kryptocoprozessor bzw. den Typ von Kryptocopro- 
zessoren anzuwahlen, der parallel zur Nutzberechnung eines 
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anderen Kryptocoprozessortyps die Dummy-Berechnungen ausfuh- 
ren soli. 

Bezuglich der verschiedenen Kryptographie-Algorithmen bzw. 
Hardware-Realisierungen derselben wird auf "Handbook of 
Applied Cryptography, Menezes, van Oorschot und Vans tone, CRC 
Press, 1997, verwiesen. 

Gemafi einem bevorzugten Ausfiihrungsbei spiel kann die Steuer- 
einheit 105 die beiden Coprozessoren 106 und 108 beispiels- 
weise auch derart ansteuern, dass die arithmetischen Einhei- 
ten AUi und AU 2 so miteinander verkoppelt werden, dass beide 
Coprozessoren, welche dann einen Cluster bilden, arithmeti- 
sche Operationen itiit Zahlen einer Lange Li + L2 durchfiihren. 
Die Register der beiden Coprozessoren konnen somit zusammen- 
geschaltet werden. 

Alternativ kann einem Coprozessor jedoch auch eine Anzahl von 
Registern exklusiv zugewiesen werden, welche so grofi ist, 
dass die Operanden fur mehrere Teiloperationen, wie z. B. mo- 
dulare Multiplikationen oder modulare Exponentiationen, aus- 
reichen. Zur Vermeidung von Informationslecks konnen die Tei- 
loperationen dann beispielsweise durch eine Einrichtung zum 
Variieren der Reihenfolge derselben, die in Fig. 2 mit 200 
bezeichnet ist, iiberlagert oder sogar zufallig vermischt wer- 
den, um noch eine weitere Verschleierung des Stromprofils zu 
erreichen. Dies wird besonders dann vorteilhaft sein, wenn 
beispielsweise lediglich zwei Coprozessoren vorhanden sind 
bzw. lediglich zwei Coprozessoren arbeiten, wahrend die ande- 
ren Coprozessoren eines Kryptographieprozessors gerade still- 
stehen. 

Gemafi einem bevorzugten Ausfuhrungsbeispiel der vorliegenden 
Erfindung umfasst die Steuereinheit 105 ferner eine in Fig. 2 
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nicht gezeigte Einrichtung zum Abschalten von Coprozessoren 
bzw. Registern von Coprozessoren, wenn dieselben nicht beno- 
tigt werden, was besonders fur batteriebetriebene Anwendungen 
von Vorteil sein kann, urn den Stromverbrauch der Gesamt- 
Schaltung zu sparen. CMOS -Bauel entente benotigen zwar nur si- 
gnifikant Strom, wenn umgeschaltet wird, sie haben jedoch 
auch einen Ruhestromverbrauch, welcher dann ins Gewicht fal- 
len kann, wenn die zur Verfugung stehende Leistung begrenzt 
ist. 

Wie es bereits ausgefuhrt worden ist, hat ein Kryptographie- 
prozessor aufgrund der langen Zahlen, die er verarbeiten 
muss, die Eigenschaft, dass bestimmte Teiloperationen, wie z. 
B. eine Seriell/Parallel-Multiplikation, wie sie bezugnehiaend 
auf die Fig. 4a und 4b dargestellt wird, ziemlich viel Zeit 
benotigt. Bevorzugterweise sind die Coprozessoren derart aus- 
gefuhrt, dass sie eine solche Teiloperation selbstandig ohne 
Eingriffe der Steuereinheit 105 durchfiihren konnen, nachdem 
die Steuereinheit den erforderlichen Befehl an das Rechenwerk 
abgegeben hat. Hierzu benotigt jeder Coprozessor selbstver- 
standlich Register zum Speichern der Zwischenlosungen. 

Aufgrund. der Tatsache, dass ein Coprozessor ohne Input der 
CPU 102 relativ lange arbeitet, kann die CPU 102 eine Viel- 
zahl von einzelnen Coprozessoren gewissermafien seriell, also 
nacheinander, mit den notigen Befehlen versehen, derart, dass 
samtliche Coprozessoren parallel arbeiten, jedoch gewisserma- 
JJen zeitlich gestaffelt zueinander. 

Zum Beispiel wird das erste Coprozessor zu einem bestimmten 
Zeitpunkt aktiviert. Ist die CPU 102 mit der Aktivierung des 
ersten Coprozessors fertig, so ftlhrt dieselbe unmittelbar die 
Aktivierung des zweiten Coprozessors durch, wahrend der erste 
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Coprozessor bereits arbeitet. Der dritte Coprozessor wird 
dann aktiviert, wenn die Aktivierung des zweiten Coprozessors 
vollendet ist. Dies bedeutet, dass wahrend der Aktivierung 
des dritten Coprozessors der erste und der zweite Coprozessor 
bereits rechnen. Wenn dies fur alle n Coprozessoren durchge- 
ftihrt wird, so arbeiten alle Coprozessoren zeitlich versetzt. 
Wenn alle Coprozessoren derart arbeiten, dass ihre Teilopera- 
tionen gleich lang dauern, so wird der erste Coprozessor als 
erster fertig sein. 

Nun kann die CPU die Ergebnisse vom ersten Coprozessor erhal- 
ten und ist damit idealerweise fertig, bevor der zweite Co- 
prozessor fertig ist. Damit kann der Durchsatz wesentlich er- 
hoht werden, wobei auch eine optimale Ausnutzung der Rechen- 
kapazitat der CPU 102 erreicht wird. Wenn samtliche Coprozes- 
soren identische Operationen ausfuhren, so entsteht dennoch 
ein stark verschleiertes Stromprof il, da samtliche Coprozes- 
soren zeitlich versetzt arbeiten. Anders ware der Fall, wenn 
samtliche Coprozessoren durch die CPU zum gleichen Zeitpunkt 
aktiviert werden und gewissermafien vollstandig synchron ar- 
beiten. Dann wurde ein nicht verschleiertes Stromprof il und 
sogar noch verstarktes Stromprof il resultieren. Daher ist das 
serielle Aktivieren der Coprozessoren auch im Hinblick auf 
die Sicherheit des Kryptographieprozessors vorteilhaft. 

Im nachfolgenden wird auf Fig. 3 eingegangen, welche eine 
Vorrichtung zum Durchfiihren einer Drei-Operanden-Addition 
darstellt, wie sie rechts in Fig. 3 formelmafiig angegeben 
ist. In der Formel rechts in Fig. 3 ist dargestellt, dass Ad- 
dition und Subtraktion gleichermaBen ausgefuhrt werden, da 
ein Operand einfach mit dem Faktor X> -1" multipliziert werden 

muss, urn zu einer Subtraktion zu kommen. Die Drei-Operanden- 

« 

Addition wird mittels eines Drei-Bit-Addierers, welcher ohne 
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ttbertrag arbeitet, d. h. eines Halbaddierers, und eines nach- 
geschalteten Zwei-Bit-Addierers, durchgefiihrt, welcher mit 
ttbertrag arbeitet, d. h. welcher ein Volladdierer ist. Alter- 
nativ kann auch der Fall auftreten, dai3 zum Operanden Z nur 
der Operand N, nur der Operand P oder gar kein Operand hinzu- 
zuaddieren bzw. zu subtrahieren ist. Dies ist in Fig. 3 durch 
die „Null" unter dem Plus/Minus-Zeichen symbolisiert und wird 
durch die in Fig. 4a dargestellten sogenannten Look-Ahead- 
parameter ai, bi symbolisiert, die in jedem Iterationsschritt 
erneut berechnet werden. 

Fig. 3 zeigt einen sogenannten Bit-Slice eines solchen Ad- 
dierwerks. Fur die Addition von drei Zahlen mit beispielswei- 
se 1024 Binarstellen wiirde die in Fig. 3 gezeigte Anordnung 
ftir einen vollstandig parallelen Betrieb 1024 mal in der 
arithmetischen Einheit eines Rechenwerks 106 vorhanden sein. 

Bei einem bevorzugten Ausftihrungsbeispiel der vorliegenden 
Erfindung ist jeder Coprozessor 106 bis 112 (Fig. 1) angeord- 
net, urn eine modulare Multiplikation unter Verwendung des 
Look-Ahead-Algorithmus auszufuhren, der in der DE 36 31 992 
C2 dargelegt ist. 

Eine hierftir erforderliche modulare Multiplikation wird an- 
hand von Fig. 4b erlautert. Es besteht die Aufgabe, die Bi- 
narzahlen "111" und "101" miteinander zu multiplizieren. 
Hierzu wird in einem Coprozessor diese Multiplikation analog 
einer Multiplikation zweier Zahlen gemafi der bekannten 
„Schulmathematik" ausgefiihrt, jedoch mit binarer Zahlendar- 
stellung. Aufgrund der Einfachheit der Darstellung wird nach- 
folgend der Fall betrachtet, in dem kein Look-Ahead- 
Algorithmus und keine Modulo-Reduktion eingesetzt wird. Wenn 
dieser Algorithmus durchgefUhrt wird, so ergibt sich zunachst 
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eirx erstes Partialprodukt ,,111". Dieses Partialprodukt wird 
dann, um seine Signifikanz zu beriicksichtigen, urn eine Stelle 
nach links verschoben. Zu dem ersten nach links verschobenen 
Partialprodukt , das als Zwischenergebnis eines ersten Itera- 
tionsschritts aufgefafit werden kann, wird dann, in einem 
zweiten Iterationsschritt das zweite Partialprodukt ,,000" 
hinzuaddiert . Das Ergebnis dieser Addition wird dann wieder 
um eine Stelle nach links verschoben. Das verschobene Ergeb- 
nis dieser Addition ist dann das aktualisierte Zwischenergeb- 
nis, Zu diesem aktualisierten Zwischenergebnis wird dann das 
letzte Partialprodukt ,,111" hinzuaddiert. Das erhaltene Er- 
gebnis ist dann das Endergebnis der Multiplikation. Es ist zu 
sehen, dafi die Multiplikation in zwei Additionen und zwei 
Verschiebungsoperationen aufgeteilt worden ist. 

Es ist ferner zu sehen, dafi der Multiplikand M das Partial- 
produkt darstellt> wenn die betrachtete Stelle des Multipli- 
kators eine binare "1" ist. Das Partialprodukt ist hingegen 
0, wenn die betrachtete Stelle des Multiplikators eine binare 
"0" ist. Ferner werden durch die jeweiligen Verschiebungsope- 
rationen die Stellen bzw. die Wertigkeiten der Partialproduk- 
te berucksichtigt . In Fig. 4b ist dies durch das versetzte 
Auftragen der Partialprodukte dargestellt. Hardwaremafiig wer- 
den fur die Addition von Fig. 4b zwei Register Z x und Z 2 be- 
notigt. Das erste Partialprodukt konnte in dem Register Z x 
gespeichert werden und dann in diesem Register um ein Bit 
nach links geschoben werden. Das zweite Partialprodukt konnte 
in dem Register Z 2 gespeichert werden. Die Zwischensumme 
konnte dann wieder im Register Zi gespeichert werden und dann 
wieder um ein Bit nach links geschoben werden. Das dritte 
Partialprodukt wurde wieder im Register Z 2 gespeichert wer- 
den. Das Endergebnis wttrde dann im Register Zi stehen. 
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Ein schematisches Flussdiagramm fur das in Fig. 4b gezeigte 
Verfahren findet sich in Fig. 4a. Zunachst werden in einem 
Schritt S10 die in einem Coprozessor vorhandenen Register in- 
itialisiert. In einem Schritt S12 wird anschliefiend, nach dem 
Initialisieren, eine Drei-Operanden-Addition durchgeftihrt, urn 
das erste Partialprodukt zu berechnen. Es sei darauf hinge- 
wiesen, dass ftir das einfache in Fig, 4b gegebene Beispiel, 
das eine Multiplikation ohne Modulo-Operation darstellt, die 
in Fig. S12 bezeichnete Gleichung lediglich Z, ai und Pi um- 
fassen wiirde. ai kann als erster Look-Ahead- Parameter be- 
zeichnet werden. In der allereinf achsten Ausfiihrung hat a 
einen Wert von "1", wenn die betrachtete Stelle des Multipli- 
kators 0 eine 1 ist. a ist gleich Null, wenn die betrachtete 
Stelle des Multiplikators eine Null ist. 

Die in Block S12 dargestellte Operation wird parallel ftir al- 
le beispielsweise 1024 Bit durchgeftihrt. Daraufhin wird in 
einem Schritt SI 4 im einf achsten Fall eine Verschiebungsope- 
ration um eine Position nach rechts durchgeftihrt, um zu be- 
rticksichtigen, dass das hochstwertige Bit des 2. Partialpro- 
dukts eine Stelle niedriger angeordnet ist als das hochstwer- 
tige Bit des 1. Partialprodukts. Haben mehrere aufeinander- 
folgende Bits des Multiplikators 0 eine Null, so findet eine 
Verschiebung um mehrere Positionen nach rechts statt. 
Schliefilich wird in einem Schritt S16 wieder die parallele 
Drei-Operanden-Addition beispielsweise unter Verwendung der 
in Fig. 3 gezeigten Addiererkette, durchgeftihrt. 

Dieses Verfahren wird fortgesetzt, bis alle beispielsweise 
1024 Partialprodukte aufaddiert sind. Seriell/Parallel bedeu- 
tet also die parallele Durchftihrung in dem Block S12 oder 
S16, und das serielle Verarbeiten, um nacheinander alle Par- 
tialprodukte miteinander zu kombinieren. 
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Im nachfolgenden wird auf die Fig. 5 bis 7 eingegangen, um 
einige Beispiele daftir zu geben, wie eine Operation in be- 
stimmte Teiloperationen aufgeteilt werden kann. Betrachtet 
wird in Fig. 5 die Operation x d mod N. Zur Zerlegung dieser 
modularen Exponentiation wird der Exponent d in binarer 
Schreibweise dargestellt. Wie es in Fig. 5 dargestellt ist, 
ergibt sich dadurch eine Kette von modularen Multiplikatio- 
nen, wobei, wie es ebenfalls in Fig. 5 dargestellt ist, jede 
modulare Einzeloperation je einem Coprozessor zugeordnet wer- 
den kann, derart, dass sSmtliche modularen Operationen paral- 
lel durch den in Fig. 1 gezeigten Kryptographieprozessor aus- 
gefiihrt werden. Die dann erhaltenen Zwischenergebnisse wer- 
den, nachdem sie parallel ermittelt worden sind, aufmultipli- 
ziert, um das Ergebnis zu erhalten. Die CPU 102 steuert dabei 
die Aufteilung auf die einzelnen Coprozessoren CPi bis CP k 
und dann das abschliefiende Aufmultiplizieren der einzelnen 
Zwischenergebnisse . 

In Fig. 6 ist ein weiteres Beispiel fur eine Aufteilung einer 
Operation (a*b) mod c in mehrere modulare Operationen ge- 
zeigt. Wieder kann der Coprozessor CPi ein erstes Zwischener- 
gebnis ermitteln. Die Coprozessoren CP 2 bis CP n berechnen 
ebenfalls Zwischenergebnisse, woraufhin, nach Erhalten der 
Zwischenergebnisse, die CPU 102 die Aufmultiplikation der 
Zwischenergebnisse steuert. Die CPU steuert die Auf summation 
z. B. so, dali sie einen Coprozessor auswahlt, der dann die 
Zwischenergebnisse zur Auf summation erhalt. Auch hier wird 
also eine Operation in mehrere voneinander unabhangige Teilo- 
perationen aufgeteilt. 

Es sei darauf hingewiesen, dass viele Moglichkeiten bestehen, 
um die eine oder andere Operation in Teiloperationen aufzu- 
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teilen. Die in Fig. 5 und 6 gegebenen Beispiele dienen ledig- 
lich zur Veranschaulichung der Moglichkeiten zur Aufteilung 
einer Operation in eine Mehrzahl von Teiloperationen, wobei 
durchaus giinstigere Aufteilungen hinsichtlich der erreichba- 
ren Performance existieren konnen. Wesentlich an den Beispie- 
len ist somit nicht die Performance des Prozessors, sondern 
dafi Aufteilungen existieren, so dass jeder Coprozessor eine 
unabhangige Teiloperation durchfiihrt, und dass eine Mehrzahl 
von Coprozessoren von einer zentralen Verarbeitungseinheit 
gesteuert wird, um ein moglichst verschleiertes Stromprofil 
am Stromeingang in den Chip zu erhalten. 
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Bezugszeichenliste 

100 Chip 

101 Bus 

102 CPU 

104a Coprozessor 

104b Coprozessor 

104c Coprozessor 

106a arithiaetische Einheit AU 1 

106b Register 1 

106c Register 2 

106d Register 3 

106e Steuereinheit 

108a arithiaetische Einheit AU 2 

108b Register 1 

108c Register 2 

108d Register 3 

108e Steuereinheit 

114 Eingangsschnittstelle 

116 Ausgangsschnittstelle 

118 RAM 

120 Taktgeneratpr 

122 Stromversorgungsanschluss 

200 Einrichtung zum Variieren der Reihenfolge 

202 Einrichtung zuiu Steuern von Duinmy-Berechnungen 

800 Computerplatine 

802 CPU • """"! 

804 RAM 

806 erster Coprozessor 
808 zweiter Coprozessor 
810 dritter Coprozessor 
812 Bus 

814 Speicher 1 
816 Speicher 2 
818 Speicher 3 

Ii - I 8 Stromversorgungsanschlusse 
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Patentanspruche 

1. Kryptographieprozessor zum Durchfuhren von Operationen fur 
kryptographische Anwendungen, mit folgenden Merkmalen: 

einer Mehrzahl von Coprozessoren (104a, 104b, 104c), wobei 
jeder Coprozessor eine Steuereinheit (106e, 108e) und eine 
arithmetische Einheit (106a, 108a) aufweist; 

einer zentralen Verarbeitungseinrichtung (102) zum Ansteuern 
der Mehrzahl von Coprozessoren; und 

einem Bus (101) zum Verbinden jedes Coprozessors mit der zen- 
tralen Verarbeitungseinheit, 

wobei die zentrale Verarbeitungseinheit, die Mehrzahl von Co- 
prozessoren und der Bus auf einem einzigen Chip (100) inte- 
griert sind, und 

wobei der Chip einen gemeinsamen Versorgungsstromzugang (122) 
zum Versorgen der Mehrzahl von Coprozessoren aufweist. 

2. Kryptographieprozessor nach Anspruch 1, 

bei dem jeder Coprozessor (104a, 104b, 104c) der Mehrzahl von 
Coprozessoren fur einen eigenen Typ von kryptographischen Al- 
gorithmen vorgesehen ist, so dass der Kryptographieprozessor 
fur eine Mehrzahl von kryptographischen Algorithmen hardware- 
maBig ausgestaltet ist. 

3. Kryptographieprozessor nach Anspruch 1, bei dem die Mehr- 
zahl von Coprozessoren einzelne Gruppen von parallel geschal- 
teten Coprozessoren aufweist, wobei jede Gruppe von Coprozes- 
soren ftir einen eigenen Typ von kryptographischen Algorithmen 
vorgesehen ist, so dass der Kryptographieprozessor fiir eine 
Mehrzahl von kryptographischen Algorithmen geeignet ist. 
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4. Kryptographieprozessor nach Anspruch 2 oder 3, bei dem der 
Typ von kryptographischen Algorithmen aus einer Gruppe ausge- 
walidt ist, die folgende Mitglieder aufweist: 

DES-Algorithmen, AES-Algorithmen fur syrametrische Verschlus- 
selungsverf ahren, RSA-Algorithmen fur asymmetrische Ver- 
schltisselungsverfahren und Hash-Algorithmen zur Berechnung 
von Hash-Werten, 

5. Kryptographieprozessor nach einem der vorhergehenden An- 
spriiche, 

bei dem eine kryptographische Operation in eine Mehrzahl von 
Teiloperationen zerlegbar ist, wobei die zentrale Verarbei- 
tungseinrichtung angeordnet ist, um die Mehrzahl von Teilope- 
rationen auf einzelne Coprozessoren (104a, 104b, 104c) der 
Mehrzahl von Coprozessoren zu verteilen. 

6. Kryptographieprozessor nach einem der vorhergehenden An- 
spriiche, 

bei dem sich die Coprozessoren voneinander unterscheiden, so 
dass die Anzahl der verschiedenen mathematischen Operationen, 
die der Kryptographieprozessor hardwaremafiig durchfiihren 
kann, zumindest gleich der Anzahl von Coprozessoren ist. 

7. Kryptographieprozessor nach einem der vorhergehenden Pa- 
tentanspriiche, bei dem die Operationen fur kryptographische 
Anwendungen eine modulare Exponentiation und/oder eine modu- 
lare Multiplikation und/oder eine modulare Additi- 
on/Subtraktion umfassen. 

8. Kryptographieprozessor nach einem der vorhergehenden An- 
spruche, bei dem jeder Coprozessor angeordnet ist, um binSre 
Zahlen mit zumindest 160 Stellen und bevorzugterweise zumin- 
dest 1024 oder 2048 Stellen zu verarbeiten. 
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9. Kryptographieprozessor nach einem der vorhergehenden An- 
sprtiche, der ferner einen nur der zentralen Verarbeitungsein- 
richtung (102) zugeordneten Speicher (118) aufweist. 

10. Kryptographieprozessor nach einera der vorhergehenden An- 
sprtiche, der ferner folgendes Merkmal aufweist: 

eine Takterzeugungseinrichtung (120) zum Liefern eines Taktes 
zu der Verarbeitungseinrichtung (102) und der Mehrzahl von 
Coprozessoren, wobei die Takterzeugungseinrichtung ebenfalls 
auf dem einzigen Chip integriert ist. 

11. Prozessor nach einem der vorhergehenden Anspruche, bei 
dem jeder Coprozessor ferner eine Mehrzahl von Registern 
(106b, 106c, 106d, 108b, 108c, 108d) aufweist, die der arith- 
metischen Einheit (106a, 108a) des jeweiligen Coprozessors 
exklusiv zugewiesen sind. 

12. Prozessor nach Anspruch 11, 

bei dem sich die Lange (L x , L 2 ) der Mehrzahl von Registern, 
die einem Coprozessor zugeordnet sind, und der Lange der 
Mehrzahl von Registern, die einem anderen Coprozessor zuge- 
ordnet sind, unterscheiden, derart, dass die Coprozessoren 
arithmetische Berechnung mit jeweils unterschiedlichen langen 
Zahlen durchfiihren konnen. 

13. Kryptographieprozessor nach Anspruch 11 oder Anspruch 12, 
bei dem die Anzahl der Register, die einem Coprozessor zuge- 
ordnet ist, ausreichend ist, um Operanden fur zumindest zwei 
Teiloperationen zu halten, so dass fttr zumindest zwei Teilo- 
perationen keine Obertragung von Operanden zwischen den Co- 
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prozessoren (104a, 104b, 104c) und der zentralen Verarbei- 
tungseinrichtung (102) erforderlich ist. 

14. Kryptographieprozessor nach Anspruch 13, bei dem die zen- 
trale Verarbeitungseinheit (102) ferner folgendes Merkmal 
aufweist: 

eine Einrichtung (200) zum zeitlichen Steuern des Betriebs 
der Coprozessoren, derart, dass die Reihenfolge der zumindest 
zwei Teiloperationen, deren Operationen in den Registern ei- 
nes Coprozessors gespeichert werden, einstellbar ist. 

15. Kryptographieprozessor nach einem der Ansprtiche 11 bis 
14, der ferner folgendes Merkmal aufweist: 

eine Einrichtung zum Abschalten von einem Coprozessor, falls 
von der zentralen Verarbeitungseinrichtung bestimmt wird, 
dass fur den einen Coprozessor keine Teiloperationen vorhan- 
den sind, urn den Stromverbrauch des Kryptographieprozessors 
zu verringern. 

16. Kryptographieprozessor nach einem der vorhergehenden An- 
sprtiche, bei dem die zentrale Verarbeitungseinrichtung (102) 
angeordnet ist, urn zumindest zwei Coprozessoren zu einem Clu- 
ster zu verbinden, derart, dass eine Teiloperation dem Clu- 
ster zugewiesen wird, so dass eine Teiloperation durch die 
Coprozessoren des Clusters zusammen ausftihrbar ist. 

17. Kryptographieprozessor nach einem der Ansprtiche 11 bis 
16, bei dem jeder Coprozessor eine Wortlange hat, die durch 
die Zahlenbreite der jeweiligen arithmetischen Einheit (106a, 
108a) vorgegeben ist, und bei dem die zentrale Verarbeitungs- 
einheit (102) angeordnet ist, urn zumindest zwei Coprozessoren 
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so zusammenzuschalten, dass die zusammengeschalteten Copro- 
zessoren eine Berechnung mit Zahlen durchftihren konnen, deren 
Wortlange gleich der Summe der Zahlenbreiten der zusammenge- 
schalteten Coprozessoren ist. 

18. Kryptographieprozessor nach einem der vorhergehenden An- 
sprtiche, bei dem die arithmetische Einheit zumindest eines 
Coprozessors ein Seriell/Parallel-Rechenwerk aufweist, das so 
ausgestaltet ist, dass in einem Zyklus eine Anzahl von Rech- 
nungen parallel ausftihrbar ist, wobei die Anzahl gleich den 
Stellen einer in der Rechnung verwendeten Zahl ist, und in 
einem anderen spateren Zyklus auf serielle Art und Weise un- 
ter Verwendung des Ergebnisses des einen Zyklus dieselbe 
Rechnung wie im ersten Zyklus durchgeftlhrt wird. 

19. Kryptographieprozessor nach Patentanspruch 18, bei dem 
ein Coprozessor fur eine modulare Multiplikation ausgefuhrt 
ist, urn in dem einen Zyklus ein Partialprodukt zu einem Er- 
gebnis eines vorherigen Zyklus hinzu zu addieren, und in ei- 
nem weiteren Zyklus das Ergebnis des letzten Zyklus zu einem 
nachsten Partialprodukt hinzu zu addieren. 

20. Kryptographieprozessor nach Patentanspruch 119, bei dem 
die arithmetische Einheit einen Drei-Operanden-Addierer fur 
eine modulare Multiplikation aufweist, welcher fur jede Stel- 
le einer verarbeiteten Zahl folgende Merkmale aufweist: 

einen Halbaddierer fur eine Addition ohne Ubertrag mit drei 
Eingangen und zwei Ausgangen; und 

einen nachgeschalteten Volladdierer mit zwei Eingangen und 
einem Ausgang. 
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21. Kryptographieprozessor nach einem der vorhergehenden An- 
spriiche, 

bei derti die zentrale Verarbeitungseinheit (102) eine Einrich- 
tung zum Ansteuern eines Kryptocoprozessors aufweist, urn eine 
Dummy-Berechnung auszufiihren. 

22. Kryptographieprozessor nach Patentanspruch 18, bei dem 
die Einrichtung (202) zum Steuern von Dummy-Berechnungen an- 
geordnet ist, urn den Kryptographieprozessor, der eine Duinmy- 
Berechnung ausftthrt, zufallig auszuwahlen. 
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